在本文中,我们研究了具有基于一般模型的函数近似值的均值控制(MFC)和均值野外游戏(MFC)和均值野外游戏(MFC)的基本统计效率。我们引入了一个称为基于均值模型的Eluder Dimension(MF-MBED)的新概念,该概念构成了均值模型类的固有复杂性。我们表明,富裕的平均RL问题家族表现出低MF膜。此外,我们提出了基于最大似然估计的al-gorithms,它可以返回MFC或MFG的ε-纳什平衡势。总体样品复合物仅取决于多项式膜,该MF膜可能比州行动空间的大小低得多。与先前的作品相比,我们的结果只需要刻薄的假设,包括可靠性和Lipschitz的连续性。
主要关键词
![arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第1页](/bimg/a/a3835c4ae4287b53412526c0489f9459e7497560.webp)
![arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第2页](/bimg/6/632ff7f23dc697547a504bdbbbb90cc5a8413f8c.webp)
![arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第3页](/bimg/4/436021a09d4ec076030aa84bed204a594974d761.webp)
![arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第4页](/bimg/c/ca456612c590e51244acd764e3f51726e9f09b4c.webp)
![arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第5页](/bimg/f/f36d7b7e6cf8994f88548dad33359077756eaea9.webp)
